#Noam Shazeer | 熱門關鍵字 | 鉅亨號

在AI熱潮中，大模型最「渴求」的究竟是什麼？是算力、是儲存，還是複雜的網路互聯？在Hot Chips 2025 上，Transformer發明者之一、GoogleGemini聯合負責人Noam Shazeer給出了答案。大模型需要什麼？在矽谷舉行的科技盛會Hot Chips 2025首日的主題演講上，GoogleDeepMind的Noam Shazeer回答了這一問題，發表了題為《下一階段AI的預測》的主題演講。除了是Transformer論文《Attention Is All You Need》的作者之一，他還推動了許多技術創新，例如顯著提升Google搜尋中的拼寫校正功能。早在2017年，他就發明了Transformer模型，至今已深耕LLM領域十年。後來，他開發了一款聊天機器人，但Google拒絕發佈這項成果，這也促使他選擇離職，創辦了Character.AI。不久之後，Google意識到自身短板，最終以27億美元的高價與Character.AI達成合作。如今，Noam已回歸Google，擔任Gemini項目的聯合負責人。正如他所展示的，大語言模型可以借助硬體等各方面資源的提升，不斷改善性能與精準性。AI下一階段算力，算力，還是算力Noam Shazeer主要分享了LLM的需求、個人的LLM研究之路以及硬體與LLM的關係。他強調幾點關鍵內容。首先，Noam認為語言建模是當前最重要的研究領域。他在演講中用一張幻燈片專門闡釋了這一點，可見他對該話題熱情之高。然後他談到了「LLM到底需要什麼」(What LLMs want)。他更關注的是：更多的FLOPS意味著更好的性能。這非常重要，因為隨著參數的增加、深度的增加、非線性以及資訊流的增加，LLM的規模也隨之增加。這可能需要更多的計算資源。更多的優質訓練資料也有助於建立更好的LLM。他還談到了2015年時，在32個GPU上訓練是一件大事；但十年後，可能需要數十萬個GPU。另一個有趣的小細節是，他說在2018年，Google為AI建構了計算節點。這是一件大事，因為在此之前，Google工程師通常在一千個CPU上運行工作負載。但隨後它們會變慢，另作他用，比如爬取網路。擁有專門用於深度學習/ AI工作負載的大型機器，使得性能有了巨大的提升。接著是晶片會議上的一大亮點，即LLM對硬體的需求。從這張幻燈片中，可以看到一個有趣的觀點更多的計算能力、記憶體容量、記憶體頻寬和更多的網路頻寬，對於推動未來AI模型的進步都至關重要。在「所有層級」上，這不僅僅是DDR5的容量和頻寬，還包括HBM和晶片上的SRAM。降低精度以幫助更好地利用這四個方面，在很多情況下也被視為好事。確定性有助於更好地程式設計。演講的資訊歸結為：在叢集中擁有更大、更快的裝置將導致LLM的增益。這對Google和其他一些公司來說可能是個好消息。大模型要什麼硬體？Noam是典型的「反向跨界者」：作為AI研究者，他對硬體充滿好奇，總想知道這些機器如何運作。在Mesh-TensorFlow項目中，他對TPU的底層網路結構產生了極大興趣。論文連結：https://arxiv.org/abs/1811.02084他提出了很多讓人耳目一新的問題：你們的晶片居然是環形網路結構？那封包在裡面怎麼跑？怎麼對應到神經網路的張量計算裡？這種好奇心最終促成了Google在軟硬體協同設計上的諸多突破。在這次演講中，Noam Shazeer深入剖析了LLM到底需要什麼硬體。AI需要的硬體支援：不止GPU毫無疑問，算力是LLM最需要的因素。當大家說「LLM想要什麼」時，實際上也是在問：為了讓AI更聰明，我們的硬體系統需要如何變化？Noam的答案清晰直接：越多越好，越大越好。1. 更多算力（More FLOPs）算力越多越好，最好是數以千兆次的浮點運算能力（petaflops）。它直接決定你能訓練多大的模型，用多大的batch，覆蓋多少訓練資料。2. 更大記憶體容量&更高記憶體頻寬Noam指出，記憶體頻寬如果不足，會限制模型結構的靈活性，比如不能輕易加非線性層。而更高的頻寬=更細粒度的控制。記憶體包括：片上儲存（on-chip SRAM）、高頻寬記憶體（HBM）、視訊記憶體或DRAM等其他中快取記憶體記憶體容量方面，直接決定了：能塞下多大的模型；在推理時，能保留多少中間狀態（比如長上下文、快取、注意力頭等）。3. 網路頻寬（Network Bandwidth）這個是很多人忽視但至關重要的一項。因為無論是訓練還是推理，LLM幾乎一定會：模型被分到多個晶片，資料在它們之間來回傳遞。舉個例子，大家現在都在追求「長思維鏈」（long chain of thought），也就是說模型要花更長的時間「思考」才能得出更強的答案。可這也意味著每一步推理要更快完成，否則響應就變慢了。這時候，瓶頸往往就在於你是否能迅速訪問完所有模型參數——不只是晶片上的那一份，而是分佈在一整塊計算網格中的所有部分。因此，Noam總結說：想推理得快，核心問題就是——你這一群晶片，總共能提供多少記憶體頻寬？AI加速發展，人類路在何方？他補充了一些其他對硬體設計的「願望清單」。1. 低精度（Low Precision）在傳統科學計算中，精度至關重要。但在LLM中，模型本身就具有一定「模糊性」，低位數往往影響不大。因此，低精度換算力完全合理，能用8-bit、甚至4-bit來換更多FLOPs，值得如此做。行業確實在嘗試越來越低的精度格式（FP8、INT4、二進制等）——只要能保持收斂，越低越好。當然，不能犧牲可重複性。核心挑戰是「訓練時精度夠用」「推理時誤差夠小」。2. 可復現性（Determinism）Noam認為這是關鍵，因為機器學習實驗的失敗率本就很高。很多時候你都不知道，某個結果失敗，是因為模型結構不對，資料有問題，還是你程式碼裡有bug。如果每次訓練都跑出不同結果，那連「偵錯」都無從下手。他回憶早期在Google Brain做非同步訓練的時候，經常出現「這次跑通了，下次又崩了」的情況，工程體驗極差。所以，他給硬體設計者的建議是：除非你能給我10倍性能，否則請不要犧牲可重複性。3. 運算溢出與精度損失問題有現場觀眾提問：低精度運算經常會溢出或出現不穩定，怎麼處理？Noam回答：確保accumulator（累加器）使用更高精度；或者進行裁剪（clipping），不要讓數值爆掉；最差的方案是「數值迴繞」（wrap around）。主持人Cliff補充了一句俏皮話：我們要的是，載入checkpoint後，機器要按原樣崩掉 ——這才算真正的可重複性。Waymo工程師提出的一個刁鑽問題：如果今天起硬體就不再進步，我們還能搞出通用人工智慧（AGI）嗎？Noam給出意外但堅定的回答：可以。他指出，AI會加速自身發展，推動軟體、系統設計持續進化，即使硬體原地不動，我們也能靠軟體層面的革新繼續進步。當然——他話鋒一轉：不過如果你能繼續搞出更好的硬體，自然更好。如果AGI真的到來，人類又該何去何從？AI是拯救還是終結人類？在算力和資料的驅動下，AI不斷向更複雜的領域進發。「只要投喂足夠的資料和算力，就有可能學習並揭示宇宙的內在結構。」在最近的訪談中，微軟AI的CEO Mustafa Suleyman如此說。他指出，當前的LLM（大語言模型）還只是「單步預測引擎」，尚處於AI發展的早期階段。但隨著持久記憶和長期預測能力的加入，LLM將有望發展為具備完整規劃能力的「行動型AI」：不僅能像人類一樣制定複雜計畫，還能持續執行任務。這一飛躍可能在2026年底前實現。Suleyman用「breathtaking」（驚豔）來形容這一未來，並強調，我們還只是剛剛起步，一切都將很快發生深刻變化。25歲豪賭未來AI，如今預測AI失業潮時間回到2010年，智慧型手機才剛剛普及、應用程式商店尚在萌芽，AI更像是科幻小說的陳詞濫調，而非嚴肅的科學課題，即使是頂尖學者也對此不屑一顧。當時年僅25歲的Mustafa Suleyman與兩位「勇敢而有遠見的」聯合創始人Demis Hassabis和Shane Legg，卻篤信一個革命性的理念：如果能創造出真正理解人類的智能，那將是改善人類狀況的最佳機會。Suleyman尖銳地指出，歷史上充滿了帶來「淨傷害」的發明。因此，在AI這項「有史以來最強大的通用技術」面前，從價值觀出發，將人類福祉置於首位，不是一句空洞的口號，而是一個必須時刻堅守的起點。但Suleyman直言，在未來20年內，將面臨大規模的失業潮。今天許多白領從事的「認知上的體力勞動」，如資料錄入、郵件處理等，將被AI高效替代。他直言，這些恐懼「非常真實」，並強調政府必須強力介入，通過稅收等再分配機制來緩衝這一社會巨變。在此基礎上，他提出了自己著作《即將到來的浪潮》中的核心概念——「遏制困境」（The Containment Problem）。他指出，技術的趨勢是讓權力被小型化、集中化，並以極低的成本普及給每個人。當AI成為一個可以代表你打電話、寫程式碼、執行計畫的智能體時，每個人執行自己想法的成本和時間都將趨近於零。這將帶來巨大的創造力爆發，但同時也埋下了衝突的種子。「如果我能點選一個按鈕執行我瘋狂的想法，你也能，那將引起大量的衝突。」「摩擦對於維持和平與穩定很重要，」Suleyman一針見血地指出。當執行一件事情的阻力（摩擦）消失時，混亂就可能接踵而至。如何「遏制」這種以零邊際成本擴散的力量，是我們時代最嚴峻的考驗。何時應該「拔掉電源」在所有對AI的擔憂中，最令人恐懼的莫過於「失控」。對此，Suleyman明確劃出了四條不可踰越的紅線。一旦一個AI同時具備以下能力，它將成為一個需要「軍事等級干預」才能阻止的系統：遞迴式自我改進（能修改自己的核心程式碼）自主設定目標獲取自身資源在世界上自主行動這引出了一個關鍵問題：我們能「拔掉電源」嗎？答案是肯定的，因為AI存在於物理的資料中心裡。但真正的挑戰在於，我們如何識別那個時刻的到來，以及如何集體做出關停的決定。重新定義「你的飯碗」對於AI引發的失業恐慌，Suleyman提供了一個更為烏托邦的視角。他引用瑞典的理念——「我們不關心工作崗位，我們關心工人」，並將其推向極致。他認為，社會的任務不應是為人們創造「飯碗」，而是創造一個和平、支援性的環境，讓人們找到自己的激情，過上充實的生活。「我夢想一個人們可以自己選擇做什麼並擁有真正自由的世界。」他相信，如果技術應用得當，產生的巨大價值足以讓社會資助人們去追求這些真正有意義的事情。這將釋放巨大的創造力，但也會帶來深刻的存在主義問題：「我是誰？我為什麼在這裡？」 (新智元)